ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی

author

Abstract:

متن نگاشته‌شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه‌های چندواحدی هستند که از اتصال یک واژه به واژه‌های بعدی حاصل می‌شوند. مشکل دیگر واحدهای چندواژه‌ای هستند که از جداشدگی واژه‌هایی که با هم یک واحد واژگانی تشکیل می‌دهند حاصل می‎گردند. این مقاله الگوریتمی را معرفی می‌کند که بتواند به‌طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به‌دست آورد. الگوریتمِ معرفی‌شده سه مرحله دارد. در مرحلۀ اول، واژه‌های چندواحدی از هم جدا می‌شوند و واحدهای چندواژه‌ای به یکدیگر متصل می‌شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی‌بر مدل زبانی معرفی شده‌است که کار تفکیک واژه‌های چندواحدی به واژه‌های مستقل را انجام می‌دهد. این الگوریتم باتوجه‌به چالش‌های پیش‌آمده بهبود می‌یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل‌گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه‌ای استفاده می‌کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می‌شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی‌شده برای واحدسازی دادۀ زبانیِ پایگاه داده‌های زبان فارسی استفاده شده‌است. با استفاده از این الگوریتم، 72.40 درصد خطای نگارشی واژه‌های دادة آزمون تصحیح شده‎است. دقت این تصحیح در دادۀ آزمون 97.80 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 0.02 درصد است.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

ارائة یک مدل معادلات تفاضلی برای بررسی دورهای تجاری

این مطالعه تلاشی برای تشخیص دورهای تجاری در اقتصاد ایران از طریق به‎مدل درآوردن ساختار همزمان عرضه و تقاضای کل پویا است. روش مدل سازی استفاده از فرایند پویا و همزمان عرضه و تقاضای کل بوده و در فضای تحلیل دورهای تجاری پولی، مدلی از نوع معادلات تفاضلی مرتبة اول طراحی، پیشنهاد و حل شده است. این مدل دو جواب خصوصی همگن و عمومی غیرهمگن دارد که به‎ترتیب در برآوردها وضعیت پایدار و نیز وضعیت اخلال‎های د...

full text

ارائة روش جدید کنترلی مبتنی بر مد لغزشی برای ردیابی نقطة حداکثر توان تولیدی مولدهای فتوولتائیک

در سال‌های اخیر، استفاده از مولدهای فتوولتائیک برای تولید انرژی الکتریکی گسترش زیادی یافته است. یکی از موضوعات مهم، بهره‌برداری از مولدهای فتوولتائیک در نقطة حداکثر توان تولیدی است. با توجه به مشخصة غیرخطی ولتاژ - جریان سلول‌های خورشیدی، برای دستیابی به نقطة حداکثر توان تولیدی، لازم است پارامترهای مختلف تأثیرگذار بر شاخصه‌های ولتاژ و جریان کنترل شوند. در این مقاله، کنترل‌کنندة غیرخطی مد لغزشی ب...

full text

نخستین پیکرۀ نقش‌های معنایی زبان فارسی

نخستین پیکرۀ نقش‌های معنایی زبان فارسی که حدود 30.000 جمله از زبان فارسی معاصررا شامل می‌شود، به صورت دستی برچسب‌گذاری شده‌است. این پیکره بر اساس مفهوم نقش‌هایمعنایی فیلمور، لایه‌ای از اطلاعات مربوط به رابطۀمحمول‌‌ـ‌‌موضوعرا به ساخت نحوی پیکرۀ وابستگی اضافه می‌کند. دراین مجموعه، افعال، اسم‌های گزاره‌ای و صفت‌های گزاره‌ای به‌عنوان محمول‌های جملهدر نظر گرفته شده و بنا بر نوع رویدادشان، در جمله تع...

full text

ارائة یک مدل معادلات تفاضلی برای بررسی دورهای تجاری

این مطالعه تلاشی برای تشخیص دورهای تجاری در اقتصاد ایران از طریق به‎مدل درآوردن ساختار همزمان عرضه و تقاضای کل پویا است. روش مدل سازی استفاده از فرایند پویا و همزمان عرضه و تقاضای کل بوده و در فضای تحلیل دورهای تجاری پولی، مدلی از نوع معادلات تفاضلی مرتبة اول طراحی، پیشنهاد و حل شده است. این مدل دو جواب خصوصی همگن و عمومی غیرهمگن دارد که به‎ترتیب در برآوردها وضعیت پایدار و نیز وضعیت اخلال‎های د...

full text

یک روش جدید برای انتخاب ویژگی مبتنی بر منطق فازی

چکیده: انتخاب ویژگی یکی از چالش برانگیز ترین و از مهمترین فعالیت‌ها در توسعه یادگیری ماشین و تشخیص الگوست. معیارهای ارزیابی ویژگی نقش بسیار مهمی برای ساخت یک الگوریتم انتخاب ویژگی دارند. در این مقاله یک معیار انتخاب ویژگی اصلاح شده با استفاده از منطق فازی برای انتخاب تعداد ویژگی‌های مورد نیاز ارائه می شود. این معیار به شکل غیر فازی در تحقیقات قبلی استفاده می‌شود، اما در این مقاله با تعریف تعداد...

full text

ارائه یک روش ترکیبی مبتنی بر تبدیل موجک گسسته برای پیش‌بینی بار الکتریکی با استفاده از یک مدل دوبعدی

چکیده: پیش­بینی میزان تقاضای انرژی الکتریکی و شناسایی روند تغییرات آن، عامل کلیدی و مؤثری در برنامه­ریزی، طراحی و بهره­برداری از  شبکه قدرت است. بی­گمان آگاهی از میزان مصرف انرژی الکتریکی، اساس و زیربنای برنامه­ریزی و تصمیم­گیری در سیستم­های قدرت است. در این مقاله با معرفی روش ترکیبی تبدیل موجک و حداقل مربعات خطا و ارائه یک مدل دوبعدی برای بار، پیش­بینی پیک ماهیانه بار استان زنجان در افق بلندمد...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 14  issue 27

pages  21- 50

publication date 2019-05-22

By following a journal you will be notified via email when a new issue of this journal is published.

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023